DCASE 2024 Task 4: Sound Event Detection with Heterogeneous Data and Missing Labels
https://arxiv.org/abs/2406.08056
DCASE 2024 ベースライン
6節に説明がある
以前のベースラインを元に作っている
2022: Description and analysis of novelties introduced in DCASE Task 4 2022 on the baseline system
2023: https://dcase.community/challenge2023/
BEATsで得た特徴量をCRNNに入れる
以下の特徴を持つCNNエンコーダに続いて
バッチ正則化
ゲート付き線形ユニット, GLU
ドロップアウト
7層の畳み込み層
biGRU層がある
? 結局各モジュールの役割は何?
CRNNの説明はこれが良さそう: https://engineering.linecorp.com/ja/blog/dcase2020-challenge
ベースライン2022を見るか
BEATsの特徴量を加工してCNNの特徴量とconcat
平均プーリングでシーケンス長を揃え
アテンションプーリングでクリップやフレーム単位用の出力を得る?
MEAN TEACHER CONVOLUTION SYSTEM FOR DCASE 2018 TASK 4が参考になる
学習戦略としてmixupとMean-Teacherを採用
mixup: Beyond Empirical Risk Minimization
特殊な学習戦略があるらしい
マスキングするとかなんとか
マイナーな変化と言っている部分が該当
この辺りは後で良い